模拟虚拟人群的轨迹是计算机图形中通常遇到的任务。最近的一些作品应用了强化学习方法来使虚拟代理动画,但是在基本模拟设置方面,它们通常会做出不同的设计选择。这些选择中的每一个都有合理的使用依据,因此并不明显其真正的影响是什么,以及它们如何影响结果。在这项工作中,我们从对学习绩效的影响以及根据能源效率测得的模拟的质量分析了其中一些任意选择。我们对奖励函数设计的性质进行理论分析,并经验评估使用某些观察和动作空间对各种情况的影响,并将奖励函数和能量使用作为指标。我们表明,直接使用相邻代理的信息作为观察,通常优于更广泛使用的射线播放。同样,与具有绝对观察结果的自动对照相比,使用具有以自我为中心的观察的非体力学对照倾向于产生更有效的行为。这些选择中的每一个都对结果产生重大且潜在的非平凡影响,因此研究人员应该注意选择和报告他们的工作。
translated by 谷歌翻译